Usando dados alternativos para construir modelos de crédito

Estamos trazendo hoje o nosso primeiro “caso de uso”. Nessa série de posts, que vamos expandir ao longo do tempo, pretendemos mostrar para o mercado como fazer o melhor uso possível dos dados e produtos que disponibilizamos para tomar melhores decisões, otimizar processos e reduzir custos.

Nesse primeiro post, vamos explorar o desafio da modelagem de crédito, em especial, a modelagem utilizando os chamados “dados alternativos” (já falamos sobre eles antes). Em toda essa série, vamos seguir uma estrutura semelhante: primeiro, vamos falar sobre os objetivos, ou seja, o que é esse caso de uso, o problema que está sendo resolvido e porque ele é relevante para o mercado; em seguida, vamos entrar no detalhe da aplicação, de como você utiliza os serviços da BigDataCorp para resolver o problema; por fim, vamos explorar alguns resultados que foram obtidos por nossos clientes na prática, bem como desafios que esses clientes enfrentaram, o que pode ajudar em implementações futuras.

Vamos então ao que interessa!

 

Objetivo

O grande desafio que empresas que estão construindo modelos de crédito enfrentam – além, é claro, da construção do modelo em si – é como fazer algo que seja realmente diferenciado para o seu negócio, algo que consiga superar de forma significativa os modelos de prateleira oferecidos pelos birôs de crédito tradicionais. Esse não é um problema simples de se resolver. Os birôs tem grande experiência no que fazem e um histórico de informações significativo, então conseguir superar os modelos que eles oferecem é de fato difícil.

Para atacar esse problema, oferecemos aos nossos clientes dezenas de atributos correlacionados com o comportamento de risco, com a capacidade de pagamento e com o acesso ao crédito de indivíduos e de empresas. No entanto, todos esses atributos são construídos a partir de dados alternativos, como a presença e participação na economia digital dos indivíduos e das empresas, as redes de relacionamentos das diferentes entidades, ou mesmo a inferência de comportamentos a partir dos anúncios e comentários postados na internet por uma pessoa.

Os dados que entregamos podem tanto ser utilizados de forma independente, para a construção de um modelo baseado apenas neles, quanto integrados em modelos já existentes, com atributos vindos de outras fontes ou mesmo com dados internos do próprio cliente.

 

Aplicação

Como funciona então a construção de um modelo de crédito com esses dados alternativos? O primeiro passo, como em qualquer processo de modelagem, é você encontrar a sua “variável resposta”, o resultado que o seu modelo quer de alguma forma prever. No caso de modelos de crédito, essa variável resposta é geralmente a inadimplência após 3, 6 ou 9 meses, ou seja, se o cliente continua pagando o empréstimo concedido após esse período. Caso você não tenha essa variável resposta em casa – porque a sua empresa ainda está começando, ou porque não tem volume o suficiente de operações para ter uma amostra representativa – a recomendação é que você não tente construir um modelo próprio, mas use um modelo de prateleira. Oferecemos alguns modelos diferentes, construídos por parceiros com nossos dados alternativos e com uma excelente relação custo x benefício.

Encontrada a variável resposta, você precisa separar uma amostra para treinar o seu modelo e coletar os dados que vai usar como atributos de entrada para o seu processo de modelagem. Se você nunca trabalhou com amostragem, uma regra geral é separar cerca de 15% dos registros para amostra de treino e o restante para validação. No que tange os dados, você não precisa se preocupar em saber de antemão quais dados vão ser relevantes. Todas as ferramentas de modelagem modernas oferecem mecanismos para fazer a seleção de atributos (feature selection), então concentre-se em pegar o máximo possível de dados de entrada e deixe que a ferramenta filtre os que são realmente relevantes.

É nessa hora, da coleta dos dados para a construção dos modelos, que entra a BigDataCorp. Recebendo uma amostra, fazemos o processo de enriquecimento dos dados e devolvemos os atributos para alimentar a sua ferramenta de modelagem. Para essa amostra, é importante que você separe, além do identificador da pessoa ou da empresa, a data de referência da operação, ou seja, quando você analisou aquela proposta. Com isso, conseguimos devolver os dados tais quais eles eram naquela data. Isso é fundamental, porque as informações de hoje podem ser bem diferentes do que eram no passado, trazendo resultados completamente distintos.

Uma vez recebida a amostra, fazemos o enriquecimento e devolvemos os dados. A partir daí, você pode operar os dados no seu próprio ambiente de construção de modelos, com a(s) ferramenta(s) que preferir, e avaliar quais dos dados que entregamos agregam mais valor à sua decisão.

 

Resultados  e desafios

Os resultados obviamente são diversos e variam de acordo com a natureza de cada cliente, mas no geral temos visto ganhos consistentes nos modelos de nossos clientes quando eles combinam nossos dados alternativos com as informações tradicionais que já estão utilizando. Esse ganho pode acontecer no KS, onde já vimos ganhos de 2 a 20 pontos em diferentes clientes, ou no custo, mantendo um resultado similar, mas com atributos que custam muito menos do que os dados tradicionais.

No caso de modelos construídos apenas com nossos dados, sabemos que é possível se chegar em resultados tão bons quanto, ou até mesmo melhores, que os modelos de prateleira oferecidos pelos birôs de crédito. A grande vantagem que trazemos nesse caso é uma enorme redução de custos para os clientes.

Independente dos resultados alcançados, os desafios enfrentados pelos clientes no processo de modelagem com dados alternativos são sempre os mesmos. Primeiro, existe uma dificuldade no próprio tratamento das informações. A grande vantagem das informações que apresentamos é a sua complexidade, a quantidade de atributos relacionados com cada registros e, em alguns casos, os múltiplos registros associados com cada entidade individual. Todo esse volume de dados geralmente precisa ser pré-processado para gerar atributos mais estruturados que podem ser colocados diretamente nos modelos, o que pode ser um desafio para quem não tem experiência com esse tipo de trabalho.

O segundo grande desafio está relacionado com a cobertura. Dados alternativos, por definição, falam de características que os dados tradicionais não cobrem. Alguns desses dados podem ter um impacto gigantesco nos modelos, mas, por ter uma cobertura baixa, acabam sendo descartados. Imagine, por exemplo, saber qual faculdade uma pessoa cursou. Obviamente, esse atributo tem um grande poder de previsão quando falamos de capacidade financeira, mas ele só existe para um pequeno percentual da população. Se o seu processo de modelagem não está preparado para trabalhar com atributos de baixa cobertura, ele acaba sendo jogado fora.

 

Conclusão

Já ajudamos centenas de clientes a melhorarem seus modelos e a substituírem dados tradicionais por dados alternativos de menor custo. Se você achou essa proposta interessante, visite o nosso site, entre em contato e conte com a nossa ajuda para o seu próximo modelo.